Telegram Group & Telegram Channel
🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science



tg-me.com/ds_interview_lib/985
Create:
Last Update:

🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/985

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

Importantly, that investor viewpoint is not new. It cycles in when conditions are right (and vice versa). It also brings the ineffective warnings of an overpriced market with it.Looking toward a good 2022 stock market, there is no apparent reason to expect these issues to change.

Библиотека собеса по Data Science | вопросы с собеседований from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA